【NLP】NLP数据标注工具汇总

最新推荐文章于 2024-03-20 09:36:10 发布

风度78

最新推荐文章于 2024-03-20 09:36:10 发布

阅读量5.2k

点赞数 2

文章标签：人工智能 python java 机器学习 linux

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwODI2NDkxNQ==&mid=2247503107&idx=4&sn=211a1bee300f3b7ca694b3a765692940&chksm=970746bfa070cfa920ed1252b3e938b4f05fa3875afdaa6137911134d4bf3aeca535a96a6cf0&scene=126&&sessionid=0

版权

写在前面

中文NLP领域比较困扰的点在于缺乏数据，尤其像事件抽取这样的任务。完全人工标注（不依赖标注系统）非常耗时费力，因为这不仅需要标注人员标注，还需要他们定位所标注的内容在句中或者篇章中的位置，非常容易出错。所以，想要搭建一个针对事件抽取的标注系统。

在调研如何造轮子时，发现有些开源工具或许可以用，可以避免不必要的标注工具开发时间。这篇文章就对调研到的开源工具做一个简要汇总。

如果本文对你有帮助，记得在文末点赞+在看，也可以分享给你的朋友～～。

一、开源数据标注工具

1. BRAT

安装环境：osx或者linux系统，windows（linux虚拟环境）
标注任务支持：实体识别、实体关系抽取、事件抽取标注
标注语言支持：可适配到中文标注
标注任务扩展：可适配到Aspect-Based Sentiment Analysis方向数据标注
相关🔗：
- 官方介绍^[1]
- BRAT项目github地址^[2]
- brat使用^[3]

2. prodigy

标注任务支持：实体识别、分类、情感分析
标注语言支持：只针对英文
特点：基于主动学习的标注工具

3. Chinese-Annotator

标注任务支持：中文命名实体识别、中文关系识别、中文文本分类
安装环境：面向OSX
特点：灵感来源Prodigy，基于主动学习的标注系统，同时支持用户标注
相关🔗：
- Chinese-Annotator项目github地址^[4]

4. YEDDA

标注任务支持：实体识别、实体关系抽取、事件抽取
标注语言支持：支持大部分语言，包括英语、中文
特点：基于python2、可标记种类数只有7种
相关🔗：
- YEDDA项目github地址^[5]

5. IEPY

标注任务支持：主要是关系抽取
相关🔗：
- IEPY项目github地址^[6]
- 官方说明文档^[7]

6. Doccano

标注任务支持：实体识别、情感分类、机器翻译
标注语言：多语言
- Doccano项目github地址^[8]
- Doccano实体标注演示demo^[9]

7. Deepdive

相关🔗：
- DeepDive^[10]

8. snorkel

相关🔗：
- snorkel项目github地址^[11]

二、总结

目前来看要做中文领域事件抽取样本标注，可选用的是YEDDA和BRAT。笔者已经使用过BRAT来进行事件抽取标注了，后续针对BRAT的使用方法会专门出一期文章。

三、其他参考资料：

2019常用NLP标注工具简单介绍^[12]
中文文本标注工具调研以及BRAT安装使用^[13]
语料标注工具1^[14]
语料标注工具2^[15]
语料标注工具3^[16]
情感分析系列之《利用BRAT进行中文情感分析语料标注》^[17]

参考资料

[1]

官方介绍: http://brat.nlplab.org/introduction.html

[2]

BRAT项目github地址: https://github.com/nlplab/brat

[3]

brat使用: https://blog.csdn.net/guofei_fly/article/details/104113217

[4]

Chinese-Annotator项目github: https://github.com/deepwel/Chinese-Annotator

[5]

YEDDA项目github地址: https://github.com/jiesutd/YEDDA

[6]

IEPY项目github地址: https://github.com/machinalis/iepy

[7]

官方说明文档: https://iepy.readthedocs.io/en/latest/

[8]

Doccano项目github地址: https://github.com/doccano/doccano

[9]

Doccano实体标注演示demo: http://doccano.herokuapp.com/demo/named-entity-recognition/

[10]

DeepDive: http://deepdive.stanford.edu/labeling

[11]

snorkel项目github地址: https://github.com/snorkel-team/snorkel

[12]

2019常用NLP标注工具简单介绍: https://blog.csdn.net/weixin_44912159/article/details/103654550

[13]

中文文本标注工具调研以及BRAT安装使用: https://www.jianshu.com/p/3a70ee9ad632

[14]

语料标注工具1: https://zhuanlan.zhihu.com/p/64513343

[15]

语料标注工具2: https://zhuanlan.zhihu.com/p/64574125

[16]

语料标注工具3: https://zhuanlan.zhihu.com/p/64745990

[17]

情感分析系列之《利用BRAT进行中文情感分析语料标注》: https://blog.csdn.net/owengbs/article/details/49780225

关于NLP数据标注工具的内容就到这里了。如果本文对你有所帮助，记得点赞+在看，也可以分享给你需要的朋友～～。

往期精彩回顾




适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载中国大学慕课《机器学习》（黄海广主讲）机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419，加入微信群请扫码：

风度78

关注

2
点赞
踩
40

收藏

觉得还不错? 一键收藏
0
评论
【NLP】NLP数据标注工具汇总

写在前面中文NLP领域比较困扰的点在于缺乏数据，尤其像事件抽取这样的任务。完全人工标注（不依赖标注系统）非常耗时费力，因为这不仅需要标注人员标注，还需要他们定位所标注的内容在句中或者篇章中的位置，非常容易出错。所以，想要搭建一个针对事件抽取的标注系统。在调研如何造轮子时，发现有些开源工具或许可以用，可以避免不必要的标注工具开发时间。这篇文章就对调研到的开源工具做一个简要汇...
复制链接

扫一扫